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一 种 自动 分 类 的 网 页 搜索 排序 算法 
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摘 要 : 针对 传统 网 页 排序 算法 Okapi BM25 通常 会 出 现 网 页 与 查询 关键 词 领 域 无 关 的 领域 漂移 现象 ， 以 及 改进 算法 
需要 人 工 建立 领域 向 量 的 问题 ， 提 出 了 一 种 基于 BM25 和 Softmax 回归 分 类 模型 的 网 页 搜索 排序 算法 。 该 方法 首先 对 
网 页 文本 进行 数据 预 处 理 并 利用 词 袋 模 型 进行 网 页 文本 的 向 量 表示 ， 之 后 通过 少量 的 网 页 数据 来 训练 Softmax 回归 分 
类 模型 ， 来 预测 测试 网 页 数据 的 类 别 分数 ， 并 与 BM25 信息 检索 的 分 数 结合 在 一 起 ， 得 到 最 终 的 网 页 排序 结果 。 实 验 
结果 显示 该 检索 算法 无 须 人 工 建立 领域 向 量 ， 即 可 达到 很 好 的 网 页 排序 结果 。 
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Web page search ranking algorithm using automatic classification 


Liu Mingyu, Liu Xueliang, Hu Jun 
(School of Computer & Information, Hefei University of Technoloey, Hefei 230009, China) 


Abstract: In the traditional Web page ranking algorithm Okapi1 BM25, there exists a problem that the retrieval results are 
independent to the domain keywords, and the improved algorithm needs to build the domain vector manually. To address this 
issue, We propose a web page ranking algorithm based on BM25 and softmax regression classification model. In this method, 
we first encode the web page text with the bag-of-words model, and then train the softmax regression classification model by a 
small amount of web data to predict the category scores of the test web data. Finally we combine the category scores and the 
BM25 information retrieval scores to get the final ranking of web page results. Experiment results show that our method can 
meet the user's information need better without even manually creating the domain vector. 


Key Words: domain vector; BM25; softmax regression classification; Web page ranking 


0 引言 忽略 了 表示 词 条 间 的 关联 性 ， 概 率 模型 则 考虑 了 词 条 、 文 档 间 
的 内 在 联系 ， 利 用 词 条 之 间 以 及 词 条 与 文档 间 的 概率 相依 性 进 
随 着 互联 网 爆炸 式 的 发 展 ，Web 信息 在 每 个 人 的 生活 中 变 。 行 信息 的 检索 ， 而 Okapi BM25 算法 (I 作为 概率 模型 的 典型 排 
得 越 来 越 重要 ， 然 而 当面 对 大 量 的 信息 时 ， 用 户 从 中 找到 有 用 序 算 法 , 已 经 在 搜索 引擎 的 网 页 排序 7?' 归 、 自 然 语言 处 理 的 文本 
的 信息 就 严重 依赖 于 搜索 引擎 的 功能 了 ， 所 以 网 页 排序 算法 一 。 ”加权 3 六 等 领域 得 到 广泛 使 用 。 
直 是 搜索 引擎 的 研究 热点 。 但 是 ， 用 户 检索 的 关键 字 往 往 是 很 近年 来 ， 大 多 数 基 于 BM25 的 相关 性 排序 算法 主要 利用 词 
简短 且 不 精确 的 四 ， 导 致 了 搜索 引擎 中 高 排名 的 网 页 可 能 与 用  ” 频 , 例如 TF、IDF 信息 等 来 计算 查询 与 网 页 之 间 的 相关 性 ，TF 
站 搜索 意图 并 不 相关 争 。 例如 ,用户 搜索 关键 词 “ 微 博 ”,， 有 的 可 指 的 是 词 条 在 文档 中 出 现 的 次 数 ，IDF 通过 统计 包含 词 条 的 文 
能 是 想 搜 索 到 “ 微 博 ” 的 登录 界面 ， 有 的 则 是 想得到 “ 微 博 ” 这 家 。” 档 数量 来 衡量 词 条 的 重要 性 。Biittcher 等 人 M1 在 BM25 的 基础 
公司 的 新 闻 、 股 票 等 相关 信息 。 互 联网 上 的 内 容 涵盖 了 多 个 主 。 上 加 入 了 临近 信息 模型 ， 该 模型 计算 了 词 条 在 文档 中 的 距离 信 
题 ， 在 现实 生活 中 ， 人 们 想 要 得 到 的 网 页 返回 信息 往往 是 某 一 ” 息 来 改善 BM25 的 评分 。Roi-Blanco 等 人 [931 同样 改进 了 BM25 
主题 内 的 ， 这 就 是 所 谓 的 领域 问题 。 实 际 影响 搜索 排序 的 因子 。 算法 并 应 用 到 网 页 检索 当中 ， 该 模型 通过 考虑 词 条 的 不 同 来 源 
有 很 多 ， 信 息 检索 是 最 主要 的 因素 之 一 。 多 年 以 来 ， 许 多 研究 。 来 计算 文档 的 词 条 的 重要 性 ， 并 通过 在 “虚拟 区 域 ” 上 定义 运 
学 者 在 信息 检索 领域 做 了 大 量 的 工作 ， 提 出 了 布尔 模型 四、 向 。 算 符 来 计算 词 条 与 文档 的 相似 度 。 上 述 方法 都 将 BM25 算法 或 
量 空间 模型 内 和 概率 模型 局 等 许多 有 代表 性 的 信息 检索 模型 ， 其 改进 算法 应 用 到 了 网 页 的 检索 排序 之 中 ， 并 取得 了 不 错 的 效 
6 尔 模 型 和 向 量 空 间 模型 都 将 文档 表示 词 条 视 为 相互 独立 的 项 ， 果 , 但 是 这 些 方法 并 没有 有 效 的 解决 领域 漂移 ,针对 这 个 问题 ， 
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文献 [13] 提 出 了 基于 领域 模型 的 网 页 排序 算法 (topic sensitive 
re-ranking, TSRR)， 该 算法 设计 了 一 种 独立 于 网 页 排序 的 模型 ， 
模型 能 够 选取 领域 关键 词组 成 的 向 量 来 表示 领域 ， 然 后 建立 网 


Rr 
入 


1.2 ”Okapi BM25 算法 
Okapi BM25 是 一 个 经 典 概率 模型 计算 公式 , 它 根据 给 定 搜 
索 查 询 词 与 匹配 文档 的 相关 性 对 文档 进行 排名 。 给 定 一 个 索引 


页 信息 模型 ， 在 用 户 检索 过 程 中 结合 领域 向 量 模 型 和 网 页 信息 
模型 对 网 页 搜索 结果 进行 重 排序 。 该 算法 效果 的 好 坏 取 决 于 领 
域 关 键 词 选择 的 多 少 以 及 关键 词 建 立 的 准确 性 。 然 而 领域 关键 
词 的 建立 比较 费时 费力 ， 而 且 严 重 依赖 专业 知识 和 直觉 。 

本 文 针 对 上 述 方法 存在 的 问题 ， 提 出 了 一 种 自动 分 类 的 网 
页 搜索 排序 算法 。 所 提 算 法 与 前 述 算法 不 同 点 在 于 无 顷 人 工 建 
立领 域 向 量 ， 而 是 采用 分 类 器 自动 获得 网 页 的 类 别 概率 。 在 信 
息 检 索 方 面 ， 本 文 使 用 BM25 算法 来 计算 检索 关键 词 与 网 页 的 
相关 性 。 领 域 方面 ,用 少量 的 网 页 训练 Softmax 回归 分 类 模型 ， 
得 到 网 页 数据 的 领域 概率 分 数 。 将 BM25 分 数 和 领域 概率 分 数 
线性 相 加 ， 对 网 页 进行 排序 。 该 方法 无 须 经 验 和 人 工 技巧 ， 即 
可 以 达到 一 个 很 好 的 网 页 排序 效果 。 


1 ”本 文 方法 


本 文 方法 如 图 1 所 示 ， 首 先 用 扑 虫 程序 息 取 网 页 文本 ,之 
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向 量 OQ， 包 含 关 键 词 q1, 92,…, qn， 对 于 一 个 文档 D，BM25 的 
分 数 公式 为 : 


f(gq,D)(Kk+1) 


加 
f (gq,D)+KkI1-b+b: 
avgdl 


SCOFE pws = Pr (9) 


| (1) 


其 中 : f(qi,D) 是 关键 词 qi; 在 文档 D 中 的 词 频 ，|D| 是 文档 忆 的 
长 度 ，avedl 是 平均 文档 长 度 ，k 和 b 是 两 个 可 调节 的 参数 ， 一 


个 决定 了 词 频 的 比重 ， 一 个 决定 了 文档 长 度 的 比重 。 实 验 验 证 

[14]， 通 常 将 设置 为 [1.2, 2.0]， 本 文 为 1.2,，b 设置 为 0.75。 
TDF(qi) 是 检索 词 gi 的 逆 文 档 频率 ， 公 式 为 
N-n(g,)+0.5 

IDF(4)= pe (2) 


龙 四 : N 是 采集 的 文档 总 数 ，n(qi) 为 包含 关键 词 的 文档 个 数 。 
观察 该 公式 可 以 看 出 ， 如 果 一 个 词 qj 在 一 半 以 上 的 文档 里 都 出 
见 ， 那 么 IDF(qj) 为 负 值 ， 所 以 本 文 在 数据 预 处 理 阶段 ， 就 把 停 


后 进行 分 词 、 去 停 用 词 和 词 袋 模型 向 量化 等 预 处 理 ， 形 成 了 本 
实验 的 数据 集 。 接 着 训练 Softmax 回归 分 类 模型 得 到 每 个 网 页 
的 类 别 概率 。 根 据 用 户 提 供 的 搜索 关键 词 ， 通 过 BM25 算法 检 
索 相 关 网 页 ， 将 网 页 的 BM25 分 数 和 Softmax 的 类 别 分 数 进行 
融合 ， 得 到 最 终 的 网 页 分 数 ， 以 此 排序 来 将 相关 网 页 返回 给 用 
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四 网 页 排序 


| | 文档 评分 


倒 排 索引 


Score 


BM25 


图 1 本 文 算法 流程 图 


1.1 数据 预 处 理 
首先 ， 通 过 和 候 忠 程序 对 不 同 领 域 的 网 站 进行 仆 取 ， 并 根据 
网 页 的 标签 提取 出 文本 内 容 ， 然 后 采用 结巴 分 词 中 的 精确 模式 


用 词 都 去 掉 。 
为 了 提高 查询 效率 ， 减 少 响应 时 间 ， 本 文采 用 倒 排 索引 机 
制 (inverted index)nsl, 在 全 局 搜索 下 , 倒 排 索引 可 以 建立 并 存储 
词 条 (term) 与 文档 (doc) 之 间 的 关系 映射 , 通过 倒 排 索引 , 可 以 根 
据 词 条 快速 获取 包含 这 个 词 条 的 文档 列表 。 在 经 过 数据 预 处 理 
过 程 之 后 ， 每 篇 文档 都 转换 成 一 个 词 条 列表 <term, doc>， 对 所 
有 文档 按照 其 中 出 现 的 词 条 来 建立 倒 排 索引 ， 索 引 中 包括 一 部 
词典 ， 和 一 个 全 体 倒 排 记录 表 。 如 图 2 所 示 。 


term: 上 (docID,, docID,) 


term» | (docID, ,docID,, docID, > 


(docID, ,docID, ) 


图 2 倒 排 索引 
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1.3 网 页 文本 分 类 

网 页 信息 是 包含 多 个 领域 数据 的 ， 因 此 ， 网 页 分 类 是 一 个 
多 分 类 问题 。 本 文采 用 Softmax 回归 分 类 模型 对 网 页 进行 分 类 。 
Softmax 回归 分 类 模型 有 很 多 优点 ， 例 如 它 是 直接 对 分 类 可 能 
性 进行 建 模 ， 无 须 事先 假设 数据 分 布 ， 这 样 就 避免 了 假 身份 不 
准确 所 带 来 的 问题 ， 而 且 它 不 仅 可 以 预测 出 类 别 ， 还 可 以 得 到 


进行 中 文 分 词 ， 并 去 掉 停 用 词 。 
在 数据 预 处 理 后 得 到 了 已 分 词 后 的 网 页 文本 数据 集 ， 对 通 
过 中 文 分 词 切 分 成 词语 的 文本 进行 计算 ， 得 到 每 个 词语 在 每 个 
网 页 文本 中 的 权重 ， 此 处 用 到 了 自然 语言 处 理 中 的 词 袋 模型 
(bag-of-words)。 如 果 某 个 词语 在 网 页 文本 中 出 现 n 次 的 话 ， 则 


近似 的 概率 预测 ， 这 就 对 本 文 的 任务 很 有 帮助 。 该 模型 数学 定 
义 如 下 : 


er 
ply = -rm G) 
Le 
其 中 : W 是 模型 参数 ，xi 为 第 i 个 网 页 文本 向 量 , p(y: = j|xi) 


在 网 页 文本 向 量 中 对 应 的 权重 值 为 n, 否则 为 0。 网 页 文本 向 量 


表示 Softmax 回归 将 x 分 类 为 类 别 j 的 概率 。 对 于 给 定 的 输入 


的 大 小 为 m * |v|, 其 中 m 为 网 页 文本 的 个 数 ，|z| 表 示 每 一 个 文 
本 向 量 的 长 度 ， 具 体 大 小 为 词典 中 词 的 个 数 。 


实例 x， 按 照 上 述 的 条 件 概率 分 布 求 得 各 类 别 的 概率 ， 取 概率 
最 大 者 ， 选 为 其 类 别 。 
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对 于 疏 取 到 的 五 个 类 别 的 网 页 ， 本 文 首先 将 全 部 的 网 页 加 
上 类 别 标签 , 为 了 近似 达到 线 上 模型 的 效果 , 随机 抽取 1500 篇 
的 数据 来 训练 网 络 ， 余 下 的 13500 篇 数据 作为 测试 数据 来 测试 
分 类 准确 率 ， 测 试 数 据 与 训练 数据 不 交叉 。 经 过 调 参 ， 当 准确 
率 达 到 最 优 时 ， 固 定好 网 络 的 参数 ， 将 13500 篇 测试 数据 再 次 
输入 到 网 络 中 ， 得 到 Softmax 回归 分 类 模型 预测 的 类 别 概率 输 
出 p。 

领域 分 类 方面 ， 采 用 余弦 相似 度 来 计算 Softmax 回归 分 类 
模型 的 类 别 概率 输出 p 与 类 别 向 量 ! 的 相似 度 ， 来 得 到 类 别 分 
数 。Softmax 回归 分 类 模型 的 类 别 概率 输出 p 与 类 别 向 量 1 可 以 
表示 为 如 下 形式 : 


I 


p = (p1p2,*, pn) 

{= (l,l2,, ln) 
其 中 : n 为 类 别 个 数 ， 类 别 向量 ! 中 只 有 一 个 元 素 的 值 
li(i= 1,2，…,n) 为 1， 其 余 元 素 为 0。 余 弦 相 似 度 的 计算 公 
式 如 下 : 


ore = pi! 
score, = EE Er (4) 
1.4 算法 整体 描述 
自动 分 类 网 页 排序 算法 的 具体 步骤 如 下 : 

a) 利 用 式 (1)(2) 计 算 用 户 搜 索 关键 字 和 每 个 网 页 的 相似 度 ， 
得 到 分 数 scorepm25。 


b) 首先 用 Softmax 回归 分 类 模型 对 网 页 进行 概率 预测 ， 其 


jy 


] Python 2.7 实现 。 
2.2 ”实验 检索 关键 词 及 语 料 

本 文 使 用 网 络 仆 虫 从 腾讯 、 新 浪 、IT 时 代 网 等 常用 网 站 礁 
取 了 TT、 创业、 学术、 时 政 、 娱 乐 等 五 大 类 新 闻 语 料 。 总 共 15000 
篇 ， 每 一 类 3000 篇 。 检 索 关键 词 挑选 自 2016 互联 网 各 领域 热 
词 , 每 个 领域 选取 三 个 检索 词 。 实 验 数据 具体 选择 如 表 1 所 示 。 


表 1 语 料 来 源 及 检索 关键 词 


Si 


领域 语 料 来 源 检索 关键 词 
虚拟 现实 、 比 特 币 、 
IT IT 时 代 网 
无 人 机 
云 计 算 、 直 播 、 
创业 IT 时 代 网 、 科 技 讯 
单车 
合肥 工业 大 学 新 闻 网 、 中 国 “ 基因、 生物、 人 工 知 
四 科学 技术 大 学 新 闻 网 能 
一 带 一 路 、 互 联网 +、 
时 政 腾讯 、 新 浪 、 搜 狐 ee 
文化 自信 
娱乐 八卦 来 了 王宝强 、 杨 洋 、 粉 丝 


2.3 评价 标准 
为 了 验证 本 文 排序 方法 的 有 效 性 ， 
价 指标 : 
a) 用 户 满意 度 。 用 户 对 排名 前 十 的 每 个 网 页 进行 打分 ， 采 
五 分 制 ， 分 数 为 1~5， 分 别 表示 很 不 满意 、 不 满意 、 一 般 、 满 


实验 采用 了 如 下 两 个 评 


i 


次 利用 式 (4) 计 算 Softmax 模型 的 类 别 概率 输出 p 与 类 别 向 量 / 
的 余弦 相似 度 ， 得 到 类 别 分 数 scoren。 

9 对 两 个 分 数 进 行 加 权 求 和 ， 得 到 网 页 排序 的 最 终 分 数 公 
式 : 


Score = Qscorepyss + BP: score, (5) 
其 中 :a +B6 =1, a, Be[0,1]， 根 据 score 对 网 页 进行 排序 ， 得 到 
最 终 的 网 页 排序 结果 .自动 分 类 网 页 排序 算法 的 具体 步 又 如 下 : 


Input: query, page, 1 


Output: result 

1: for each page in pagelist{ 

2: scorepmz2s=BM25(query, page) 
3: p=SOFTMAX(page) 

4: scorep=cosine-relative(l, p) 

5: score=Q@ scoregmzs +PB:score, 
6: result.add(score, page) 

7: result.sorted(score) 

8:} 


9: return result 
2 ”实验 结果 及 分 析 


2.1 实验 设置 
本 文 实验 所 使 用 的 机 器 配置 为 Intel% Xeont CPU E5- 
2620@2.10GHz，RAM 64GB，Ubuntu 14.04 操作 系统 ,算法 采 


意 、 十 分 满意 。 最 后 计算 前 十 网 页 的 打分 均值 。 公 式 如 下 : 


i n 
Satisfication =— > S, 
atisfication 2 | (6) 


其 中 : n 是 
值 。 

b)Precision at K。P@K 是 信息 检索 领域 一 个 最 直观 的 指标 ， 
它 反映 了 检索 回 的 前 K 个 结果 中 被 认为 是 相关 的 文档 的 比例 。 
所 以 该 指标 衡量 的 是 用 户 对 整体 检索 结果 的 满意 度 。 根 据 文 献 
[16] 的 评价 标准 ， 本 文选 择 在 用 户 满意 度 指标 中 网 页 评分 3 分 
以 上 的 ， 即 满意 和 十 分 满意 的 网 页 作为 相关 的 网 页 检索 结果 。 
PQ@K 的 公式 如 下 : 


] 户 数量 ，5; 表 示 用 户 对 排名 前 十 的 网 页 打分 的 均 


K, 
P@K=® (7) 


其 中 ，K, 指 的 是 前 K 个 查询 结果 中 相关 网 页 的 个 数 。 对 于 检索 
系统 而 言 ， 用 户 想 要 的 结果 排名 越 靠 前 ， 那 么 这 个 检索 系统 越 
是 成 功 的 ， 为 了 将 排序 位 置信 息 也 加 入 到 评测 指标 中 ， 本 文 分 
别 选择 P@2、P@4、P@6、P@8、P@10 来 判断 检索 结果 的 好 
坏 。 
2.4 参数 调 优 

式 (5) 决 定 网 页 排序 的 最 终 得 分 , 对 于 两 个 参数 qa, 6 需要 根 
据 实验 结果 来 权衡 哪 一 部 分 的 比重 更 大 ， 实 验 的 方法 是 找 五 个 
志愿 者 ， 每 个 领域 选取 出 一 个 关键 词 ， 利 用 用 户 满意 度 公式 ， 
对 不 同 的 参数 计算 出 来 的 排序 结果 进行 评分 ， 并 确定 参数 的 最 
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优 值 , 每 个 关键 词 进行 九 次 实验 , 参数 分 别 从 第 一 次 的 (0.1 0.9) 
到 第 九 次 的 (0.9, 0.1)。 是 实 


me | 一 四 -一 IT 一 6 一 创业 

45 兴 一 时 政 一 全 一 学 一 4 一 娱乐 
4 
区.5 
幅 
控 
下 
2.5 
2 

1] 2 3 4 5 6 7 8 9 

实验 次 数 


图 4 参数 调 优 结果 


根据 实验 结果 ，IT、 学 术 、 娱 乐 三 个 领域 在 (0.4, 0.6) 时 用 户 
满意 度 分 数 最 高 ， 同 时 创业 、 时 政 也 达到 了 第 二 高 评分 ， 五 类 
的 平均 分 也 是 在 (0.4, 0.6) 时 达到 最 高 ， 因 此 本 文选 择 w = 0.4， 
PB = 0.6 作 为 最 优 参数 值 。 

Softmax 回归 分 类 器 的 迭代 次 数 为 50 次 , 步 长 设置 为 10-4， 
当 分 类 准确 率 达到 最 高 约 为 94.6% 时 , 获得 分 类 器 的 最 优 参数 ， 
将 测试 数据 输入 网 络 中 计算 得 到 类 别 概率 。 

2.5 对比 实 验 结果 

本 文选 择 的 对 比方 法 同样 是 为 了 解决 领域 漂移 问题 的 
TSRR 算法 ， 由 于 数据 集 不 同 ， 该 算法 同样 按照 本 文 参数 调 优 
的 方法 确定 参数 最 优 值 为 = 0.3, 6 = 0.7。 在 事先 不 告知 两 种 
排序 结果 分 别 属 于 哪 种 算法 的 前 提 下 ， 找 五 名 志愿 者 ， 对 所 给 
各 领域 检索 关键 词 ， 按 照 对 某 个 关键 词 在 对 应 领域 想 要 得 到 的 
检索 结果 对 每 个 关键 词 所 检索 回 的 网 页 结果 进行 用 户 满意 度 打 
分 。 图 5 是 实验 结果 对 比 。 由 图 5 可 知 ， 一 些 关键 词 本 身 包含 
一 定 领域 信息 ， 例 如 : IT 领域 的 “虚拟 现实 "、“ 比 特 币 ” 创业 


，Ghinaxiy 合 作 期 刊 ， 


n 
刘 铭 琐 ， 等 动 分 类 的 网 页 搜索 排序 


领域 的 “ 云 计 算 “ 直 播 * 共 享 单车 *、 学 术 领 域 的 “基因 ”生物 ”， 
时 政 领域 的 “一 带 一 路 “文化 自信 ”， 娱 乐 领域 的 “王宝强 “ 杨 
洋 “ 粉 丝 ” 等 。 这 些 关 键 词 的 结果 TSRR 的 用 户 满 意 度 平均 分 为 
3.53， 本 文 算法 获得 了 3.87， 比 TSRR 高 9.6%。 但 是 像 < 无 人 
机 ?” 既 可 以 是 IT 领域 ， 也 可 以 是 创业 领域 。“ 人 工 智能 ” 既 可 以 
是 IT 领域 ， 也 可 以 是 创业 领域 或 者 学 术 领 域 。“ 互 联网 +”" 也 是 
如 此 。 这 些 关键 词 在 检索 的 时 候 就 可 能 存在 严重 的 领域 漂移 现 
象 ， 这 三 个 词 TSRR 平均 分 为 2.83， 本 文 算法 平均 分 为 3.73， 
比 TSRR 提高 了 31.8%。 有 效 的 解决 了 领域 漂移 的 问题 。 
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图 5 各 领域 用 户 满意 度 实验 结果 


表 2 PQ@K 实验 结果 


算法 TSRR 本 文 算法 
关键 词 P@ P@4 P@6 P@8 P@I10 P@2 P@4 P@6 P@8 PQ@10 
虚拟 现实 1 1 0.83 0.88 0.8 1 1 1 1 0.8 
IT 比特 币 1 0.5 0.5 0.5 0.4 1 0.75 0.5 0.5 0.5 
无 人 机 05 05 0.33 0.38 0.4 1 1 0.83 0.88 0.8 
云 计算 0 0.25 0.17 0.25 0.4 1 1 0.83 0.88 0.7 
创业 直播 05 05 033 038 0.5 1 1 083 088 0.9 
t 享 单车 0 0.25 0.33 0.25 0.4 0.5 0.5 0.33 0.25 0.4 
基因 0.5 0.75 07 0.63 0.6 1 0.75 05 0.63 0.7 
学 术 生物 1 1 0.83 0.88 -0.7 1 1 0.83 0.88 0.9 
人 工 智能 0 025 0.17 0.13 0.2 1 0.75 0.83 0.75 0.8 
一 带 一 路 1 1 0.83 0.75 0.7 1 1 0.83 -0.88 0.9 
时 政 ”互联 网 | 0 025 017 013 0.1 1 0.75 0.67 0.63 0.6 
文化 自信 ”0.5 0.25 0.5 0.63 0.7 1 1 1 1 1 
王宝强 1 0.75 0.67 0.63 0.6 1 1 0.83 0.75 0.7 
娱乐 杨洋 1 1 0.83 0.75 0.6 1 1 0.83 0.75 0.6 
粉丝 0 0.25 0.33 © 0.5 0.6 1 1 1 0.88 ”0.9 


本 文选 择 P@k 来 衡量 算法 对 检索 结果 位 置 的 好 坏 。 结 果 
如 表 2 所 示 , P@2 提升 了 81.3%, P@4 提升 了 58.8%, P@6 提 


升 了 54.8%，P@8 提升 了 50.5%，P@10 提升 了 45.5%。 本 文 
算法 的 P@2 等 指标 有 较 大 提高 ， 确 保 了 用 户 想 要 得 到 的 结果 


录用 稿 
返回 在 较 靠 前 的 位 置 。 综 上 所 述 ，Softmax 回归 分 类 模型 与 


BM25 结合 的 网 页 排序 算法 即 有 效 的 解决 了 网 页 排序 中 领域 漂 
移 问 题 ， 也 使 得 相关 网 页 的 排序 更 加 靠 前 。 


3 ”结束 语 


I 


本 文 提 出 了 一 种 结合 BM25 和 Softmax 回归 分 类 模型 的 
网 页 排序 算法 ， 算 法 采用 少量 的 网 页 数据 训练 分 类 器 ， 获 得 类 
别 分 数 , 与 BM25 检索 分 数 相 结合 , 得 到 网 页 排序 的 最 终 分 数 。 
该 方法 无 顷 人 工 建 立领 域 向 量 ， 有 效 的 解决 了 领域 漂移 的 问题 ， 
同时 能 够 保证 了 相关 的 网 页 排名 更 加 靠 前 。 在 后 续 的 研究 中 ， 
将 用 户 的 历史 搜索 、 行 为 倾向 0 等 加 入 到 该 算法 当中 ,使 得 
网 页 排序 算法 得 到 更 好 的 效果 。 
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